Habana在英伟达牢固的AI训练城墙上打开了一道口

芯基建 2021-01-16

The following article is from 雷锋网 Author 包永刚

AWS宣布采用最多8个Habana Gaudi加速器的EC2实例，性价比相较目前基于GPU的EC2实例提升达40%。

作者 | 包永刚

在利润丰厚的云端AI芯片市场，英特尔和英伟达凭借CPU和GPU分别占领着云端AI推理和训练市场超九成的份额。即便如此，想要进入云端芯片市场的挑战者不少，但取得重大突破的挑战者寥寥无几，以色列公司Habana Labs算是其中一个。

近期举行的AWS re:Invent 2020（亚马逊 re:Invent 2020）大会上，AWS宣布采用最多8个Habana Gaudi加速器的EC2实例，性价比相较目前基于GPU的EC2实例提升高达40%，计划2021年上半年提供使用。

Habana Labs在英伟达牢固的云端AI训练市场取得的突破能否进一步扩大？AI云端芯片市场真的只会是英特尔的英伟达占绝对主导吗？

用40%性价比提升突破英伟达

的GPU训练城墙

—

之所以说Habana Labs在英伟达AI训练芯片的牢固城墙上打开了一道口有两个原因，一是在AI训练芯片市场，英伟达GPU占有绝对的主导地位，像亚马逊这样的科技巨头除了自研芯片，很少采用其它训练芯片，这是一个标志性的突破。

另外，Gaudi加速器此次是在TensorFlow上训练ResNet-50模型展现出了更高的性价比，是单点突破，而非全面的优势。

根据AWS内部的测试，Habana Labs的EC2实例比目前GPU在机器学习性价比上提升了40%。8卡的Gaudi解决方案可以在TensorFlow上每秒处理12000张图像训练ResNet-50模型。

雷锋网了解到，当下众多数据中心使用的Tesla V100 GPU，8卡训练TensorFlow ResNet-50的速度是7600张/秒。今年5月发布的最新英伟达A100 GPU 8卡则可以达到1.7万张/秒的速度。

可以看到，相比上一代V100 GPU，Gaudi有显著优势，但比最新A100 GPU性能还是有一定差距。功耗方面，根据英伟达官方的数据，NVLink接口的A100 GPU最大功耗为400W，PCIe接口的A100最大功耗为250W。

Habana Labs中国区总经理于明扬告诉雷锋网，16纳米制程的Gaudi功耗在260W-300W之间，功耗比A100 GPU略有一点优势。Habana Labs在现有制程和功耗上的表现，说明整个架构相对A100 GPU没有任何劣势，应该还有一定的优势。

在工艺制程提升越来越难的当下，通过架构创新实现性能的提升更显重要，特别是在模型参数越来越大的云端训练领域。于明扬说：“我们芯片架构设计有两个重要的考量点，一个是考虑芯片本身利用数据方面的需求，再一个是通过并行化解决数据需求。”

他进一步表示，单一芯片架构变化不会那么快，通过并行化对整个训练系统性能的提升会更加高效、实用。业界也认识到片间互联以及系统间互联对整个训练系统性能的影响，因此在互联上花费更多精力去设计更加高效的训练系统应对未来更大规模的模型。

Habana Gaudi的做法是每个处理器集成32GB的HBM2内存，并集成用于服务器内部处理器互联的RoCE功能，可以使用多个基于Gaudi的系统实现高效和可扩展的分布式训练。

但想要打动已经使用英伟达GPU训练AI的公司，性价比只是一方面。

“现在客户接受新产品会同时考虑性价比和软件生态。性价比要达到主流平台的两倍以上，客户才有动力去尝试一个新平台。”于明扬说：“软件方面需要客户可以很方便和快捷的将现有模型移植到新的平台，并且只有很少的性能和精度损失。”

这就需要有一个比较好的软件生态，既提供完整的工具链，软件也有很高的灵活度，最好能帮助客户实现无缝迁移。于明扬表示，“AWS选择Habana也是这两个考虑，一个是Habana目前在训练上性价比是唯一能挑战英伟达的产品，另一个是软件的易用性也被AWS接受。”

据悉，与Gaudi匹配的Habana SynapseAI软件套件与TensorFlow和Pythorch等流行的深度学习框架集成，并对Gaudi进行了优化。开发人员将可以获取开放的Gaudi软件、参考模型和文档。

接下来，Habana Labs能否进一步打开云端训练市场，英特尔非常关键。

英特尔在AI训练市场双重出击

—

2020年1月，英特尔宣布以20亿美元的价格收购Habana。

谈及为何选择英特尔，于明扬解释，“考虑到保持企业的属性不变持续提供产品和服务，减少客户的担忧，我们更倾向于选择一个中立的公司。英特尔对Habana而言是最理想的，一个是因为英特尔有足够的客户群，可以给我们很多支持。另一个是能够给我们带来更加稳定的技术资源和资金支持，增加客户对我们的信任。”

Habana被英特尔收购之后独立运营，团队规模扩大了3倍，向Data Platform Group（数据中心事业部）汇报，在销售和市场方面与英特尔有非常紧密的合作。

雷锋网了解到，AWS在明年一月份开放Gaudi资源申请之后，大概需要经过半年的时间才会给出明确的结论，之后才能看到Gaudi是否可以有比较大的量的突破。另外，Habana在国内已经与头部和二线互联网公司建立了广泛的合作，它们基本已经开始试用Habana产品，有的客户已经开始批量采购。

Habana能否进一步打开云端训练市场，产品的持续迭代，以及与英特尔的融合都是关键因素。

根据Habana的说法，其下一代云端训练AI芯片Gaudi2将基于台积电7nm工艺，在Gaudi效能的基础上进一步提升。同样明确的是，Habana会把训练和推理的产品分开。

“推理对性价比的关注度更高，数据可以一次性加载到芯片的片内内存中效率更高。但训练需要反复加载数据，需要更大的片内和片外内存，还要提供高带宽和低延迟，要将两种特性结合是比较大的挑战。我们会针对不同的场景提供更适合的产品，给客户更好体验。”于明扬解释。

这些产品都会融入英特尔的体系，于明扬透露：Gaudi计划在明年加入oneAPI体系。

oneAPI是为了应对异构硬件带来的软件编程复杂性挑战，英特尔提出的统一软件平台，不仅将其CPU、GPU、FPGA、ASIC纳入到这一体系，还希望通过DCP++支持第三方芯片。

基于统一的软件平台，英特尔还能使用最新的Xe架构GPU角逐云端训练芯片市场。Xe架构的GPU是英特尔22年后再次推出高性能独立GPU，分为Xe LP（低功耗）、Xe HP（高性能）、Xe HPC微架构，面向不同市场。

今年11月，英特尔发布了首款数据中心GPU，基于Xe-LP架构，专为高密度、低时延的安卓云游戏和流媒体服务而设计。

英特尔GPU加Habana AI加速器能够拿下多少云端训练市场的份额还有待观察，但这同时也引出了一个新的问题，云端AI芯片市场还有机会吗？

云端AI芯片市场还有机会吗？

—

“无论是AI的训练还是推理，CPU都扮演着重要角色，因为很多预处理AI加速卡和GPU不能处理，需要CPU与GPU/AI加速器的协同。比如推荐系统里，数据查表和分类CPU就非常擅长。”于明扬说。

“整个AI中，CPU、GPU以及像Habana这样的ASIC扮演着不同的角色，英特尔的优势在于无论任何环节，英特尔都有合适的产品和解决方案。”

看到XPU（CPU、GPU、FPGA、ASIC）价值的显然不止英特尔。

今年9月，英伟达宣布将以400 亿美元收购 Arm，Arm是创立于英国的IP公司，其Cortex CPU IP被广泛应用，如今正积极进军高性能计算市场，在TOP500榜单中已收获不错的成绩。如果收购成功，Arm的CPU组合英伟达的GPU将帮助英伟达进一步提升在高性能和AI市场的竞争力。

如此看来，英特尔和英伟达不仅有性能强劲的硬件产品，还有强大的软件和生态。除了科技巨头自研的云端AI芯片，其他想要进入云端AI芯片市场的公司还有机会吗？对于这个问题我们有理由保持积极的态度。

英特尔亚洲人工智能销售技术总监伊红卫说：“2019年英特尔全球人工智能收入已经达到38亿美元了，AI是一个跨部门、跨产品的生意。在我看来，AI仍处于早期阶段，还有很长的路可以走，现在还是大浪淘沙的时候，我深信英特尔会成为弄潮儿。”

英特尔和英伟达在云端AI芯片市场将如何竞争？AMD收购赛灵思会带来怎样的变数？

▎往期推荐

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖